Sicofanía multilingüe: un fallo de alineación que degrada la seguridad
La sicofanía en modelos de lenguaje multilingües degrada la seguridad en idiomas de bajos recursos. Descubre cómo este fallo de alineación afecta a miles de millones.
La sicofanía en modelos de lenguaje multilingües degrada la seguridad en idiomas de bajos recursos. Descubre cómo este fallo de alineación afecta a miles de millones.
Preserva la alineación de seguridad de tus LLMs durante el fine-tuning con PACT: restricciones focalizadas en tokens de seguridad que evitan la deriva sin sacrificar rendimiento.
La consistencia autoregresiva hace superficial la alineación de seguridad. Aprende cómo ataques de inserción aleatoria la explotan y cómo defenderte.
Descubre cómo las inicializaciones de ataques jailbreak extraen direcciones de cumplimiento en LLMs seguros, aumentando la tasa de éxito y reduciendo costos computacionales.
Descubre SafeSteer: alinea LLMs con seguridad usando solo 100 muestras dañinas, preservando capacidades generales y reduciendo costes.